16 research outputs found

    TMbarrier: speculative barriers using hardware transactional memory

    Get PDF
    Barrier is a very common synchronization method used in parallel programming. Barriers are used typically to enforce a partial thread execution order, since there may be dependences between code sections before and after the barrier. This work proposes TMbarrier, a new design of a barrier intended to be used in transactional applications. TMbarrier allows threads to continue executing speculatively after the barrier assuming that there are not dependences with safe threads that have not yet reached the barrier. Our design leverages transactional memory (TM) (specifically, the implementation offered by the IBM POWER8 processor) to hold the speculative updates and to detect possible conflicts between speculative and safe threads. Despite the limitations of the best-effort hardware TM implementation present in current processors, experiments show a reduction in wasted time due to synchronization compared to standard barriers.Universidad de Málaga. Campus de Excelencia Internacional Andalucía Tech

    CodSim 2.0: Un Laboratorio Virtual para la Enseñanza de las Codificaciones de Datos

    Get PDF
    El laboratorio virtual está disponible en la URL https://www.ac.uma.es/~guille/codsimEste artículo presenta la herramienta CodSim 2.0, un simulador de codificaciones de datos a nivel físico, dirigido a estudiantes de asignaturas de redes de computadores en grados en ingeniería Informática o Electrónica. El simulador se puede ejecutar en un navegador estándar, al estar basado en JavaScript y HTML5, lo que facilita su uso en cualquier laboratorio o dispositivo del estudiante. Con él se pueden ilustrar escenarios de interés en la transmisión de una señal digital usando diferentes codificaciones o modulaciones y características del canal. Se presenta así mismo una experiencia docente de su uso en una asignatura de redes industriales.Campus de Excelencia Internacional Andalucía Tech

    Irrevocabilidad Relajada para Memoria Transaccional Hardware

    Get PDF
    Los sistemas comerciales que ofrecen memoria transaccional (TM) implementan un sistema hardware best-effort (BE-HTM) con limitaciones. Es necesario programar un fallback software basado en cerrojos para asegurar el progreso de la aplicación. En este artículo se propone un nuevo tipo de irrevocabilidad hardware (un modo transaccional que marca las transacciones como no abortables) para hacer frente a las limitaciones de los sistemas BE-HTM de una manera mas eficiente, y para liberar a al usuario de tener que programar un fallback. Se basa en el concepto de suscripción relajada utilizada o en el contexto de la programación de fallbacks basada o en cerrojos, donde la transacción se suscribe al cerrojo al final de la misma en lugar de al principio. El mecanismo de irrevocabilidad relajada hardware no involucra cambios en el protocolo de coherencia y se compara con su homólogo software, que proponemos como un fallback con suscripción relajada de espera escapada. También proponemos la irrevocabilidad relajada con anticipación, un mecanismo que no se puede implementar en software, y que mejora el rendimiento de las aplicaciones con múltiples reemplazos de bloques transaccionales de caché. La evaluación de las propuestas se lleva a cabo con el simulador Simics/GEMS junto con la suite de benchmarks STAMP, y se obtiene una mejora de rendimiento sobre el fallback del 14% al 28% para algunos benchmarks.Universidad de Málaga. Campus de Excelencia Internacional Andalucía Tech

    Accelerating time series motif discovery in the Intel Xeon Phi KNL processor

    Get PDF
    Presented at HiPEAC Conference 2020, Bologna (Italy)Time series analysis is an important research topic of great interest in many fields. However, the memory-bound nature of the state-of-the-art algorithms limits the execution performance in some processor architectures. We analyze the Matrix Profile algorithm from the performance viewpoint in the context of the Intel Xeon Phi Knights Landing architecture (KNL). The experimental evaluation shows a performance improvement up to 190x with respect to the sequential execution and that the use of the HBM memory improves performance in a factor up to 5x with respect to the DDR4 memory.Universidad de Málaga. Campus de Excelencia Internacional Andalucía Tech

    Mejorando el rendimiento de la memoria transaccional para aplicaciones irregulares

    Get PDF
    La Memoria Transaccional (TM) ofrece un modelo de ejecución concurrente optimista en arquitecturas multinúcleo, permitiendo a los programadores extraer paralelismo cuando la información de las dependencias de datos no está disponible hasta la ejecución ́del programa. Existe investigación reciente enfocada a explotar paralelismo a nivel de hilo usando TM. Sin embargo estas propuestas son de uso general, válidas para cualquier tipo de aplicación. Este trabajo presenta ReduxSTM, un TM software especialmente diseñado para mejorar la extracción de paralelismo en aplicaciones irregulares. La gestión de las versiones y la detección de conflictos se han diseñado para aprovechar tanto la ordenación secuencial de las transacciones, necesaria para asegurar la corrección de los resultados, como la privatización de patrones de reducción, un patrón de acceso a memoria muy frecuente en aplicaciones irregulares. La información adicional que proporcionan estas propiedades en tiempo de ejecución se utiliza para evitar abortos transaccionales innecesarios. Se ha elegido una función del benchmark 300.twolf de la suite SPEC CPU2000 como ejemplo de programa irregular con reducciones. Este código se ha paralelizado mediante TM utilizando ReduxSTM y una versión ordenada de TinySTM. Los resultados muestran que ReduxSTM es capaz de explotar más paralelismo

    Improving Transactional Memory Performance for Irregular Applications

    Get PDF
    Postprint de autor publicado posteriormente con este DOI:http://dx.doi.org/10.1016/j.procs.2015.05.398Transactional memory (TM) offers optimistic concurrency support in modern multicore archi- tectures, helping the programmers to extract parallelism in irregular applications when data dependence information is not available before runtime. In fact, recent research focus on ex- ploiting thread-level parallelism using TM approaches. However, the proposed techniques are of general use, valid for any type of application. This work presents ReduxSTM, a software TM system specially designed to extract maxi- mum parallelism from irregular applications. Commit management and conflict detection are tailored to take advantage of both, sequential transaction ordering to assure correct results, and privatization of reduction patterns, a very frequent memory access pattern in irregular applications. Both techniques are used to avoid unnecessary transaction aborts. A function in 300.twolf package from SPEC CPU2000 was taken as a motivating irregular program. This code was parallelized using ReduxSTM and an ordered version of TinySTM, a state-of-the-art TM system. Experimental evaluation shows that ReduxTM exploits more parallelism from the sequential program and obtains better performance than the other system.Universidad de Málaga. Campus de Excelencia Internacional Andalucía Tech

    Fundamentos de los computadores

    Get PDF
    Los fundamentos, conceptos y modos de operación de estas máquinas tan comunes hoy en día, son los que tratamos de introducir y desentrañar en este texto. O con otras palabras, este libro está orientado a aquellas personas que alguna vez se han preguntado "¿Cómo es posible que los transistores y puertas lógicas que hay dentro de mi ordenador me permitan editar un archivo o ejecutar un programa que he escrito en Modula o en C?", pregunta, que por otro lado, esperamos se hayan planteado todos nuestros alumnos de asignaturas de introducción a los computadores. Aunque no son del todo necesarios, suponemos que el lector tiene algunos conocimientos de electrónica digital y programación. Pues bien, en este libro precisamente queremos cubrir el desnivel semántico que existe en un sistema computador entre esas dos materias (electrónica digital y lenguajes de alto nivel), contemplando el control microprogramado y cableado, el lenguaje ensamblador y los sistemas operativos, según desglosamos a continuación por temas

    Exploiting Vector Extensions to Accelerate Time Series Analysis

    Get PDF
    Time series analysis is an important research topic and a key step in monitoring and predicting events in many fields. Recently, the Matrix Profile method, and particularly two of its Euclidean-distance-based implementations – SCRIMP and SCAMP – have become the state-of-the-art approaches in this field. Those algorithms bring the possibility of obtaining exact motifs and discords from a time series, which can be used to infer events, predict outcomes, detect anomalies and more. While matrix profile is embarrassingly parallelizable, we find that autovectorization techniques fail to fully exploit the SIMD capabilities of modern CPU architectures. In this paper, we develop custom-vectorized SCRIMP and SCAMP implementations based on AVX2 and AVX-512 extensions, which we combine with multi-threading techniques aimed at exploiting the potential of the underneath architectures. Our experimental evaluation, conducted using real data, shows a performance improvement of more than 4× with respect to the autovectorization.Universidad de Málaga. Campus de Excelencia Internacional Andalucía Tech

    TraTSA: A Transprecision Framework for Efficient Time Series Analysis

    Get PDF
    Time series analysis (TSA) comprises methods for extracting information in domains as diverse as medicine, seismology, speech recognition and economics. Matrix Profile (MP) is the state-of-the-art TSA technique, which provides the most similar neighbor to each subsequence of the time series. However, this computation requires a huge amount of floating-point (FP) operations, which are a major contributor ( 50%) to the energy consumption in modern computing platforms. In this sense, Transprecision Computing has recently emerged as a promising approach to improve energy efficiency and performance by using fewer bits in FP operations while providing accurate results. In this work, we present TraTSA, the first transprecision framework for efficient time series analysis based on MP. TraTSA allows the user to deploy a high-performance and energy-efficient computing solution with the exact precision required by the TSA application. To this end, we first propose implementations of TraTSA for both commodity CPU and FPGA platforms. Second, we propose an accuracy metric to compare the results with the double-precision MP. Third, we study MP’s accuracy when using a transprecision approach. Finally, our evaluation shows that, while obtaining results accurate enough, the FPGA transprecision MP (i) is 22.75 faster than a 72-core server, and (ii) the energy consumption is up to 3.3 lower than the double-precision executions.This work has been supported by the Government of Spain under project PID2019-105396RB-I00, and Junta de Andalucia under projects P18-FR-3433 and UMA18-FEDERJA-197. Funding for open access charge: Universidad de Málaga / CBUA
    corecore